LLM越狱攻击威胁被系统性高估? 基于分解式评分「越狱评估新范式」 回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答 范式 llm 威胁 越狱 jades 2025-10-13 10:40 3